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人 机 结合 校对 模式 在 图 书 校对 中 的 应 用 研究 


梁 噶 
( 河南 文艺 出 版 社 ， 河 南 郑州 450016 ) 


摘 要 : 由 于 校对 要 求 的 不 断 变化 ， 导 致 校对 工作 的 有 效 性 难以 得 到 保证 ， 基 于 此 ， 文 章 提出 人 机 结合 校对 模式 在 图 书 校对 
中 的 应 用 研究 。 考 虑 到 校对 工作 的 复杂 性 ， 利 用 静态 分 解 策略 将 其 分 解 为 若干 个 独立 校对 任务 ， 并 以 适应 度 为 基础 构建 了 任 
务 间 的 协作 机 制 ， 通 过 机 器 学 习 提取 机 制 中 发 生 改 变 的 校对 目标 ， 并 通过 人 工 核对 的 方式 确认 改变 的 准确 性 ， 实 现 对 机 制 中 
校对 目标 的 更 新 处 理 。 在 此 基础 上 , 匹配 待 校对 文本 与 校对 目标 , 当 匹 配 度 达到 [0.65, 1.00] 区 间 时 , 计算 机 对 其 进行 自主 修订 ， 
对 非 自主 修订 区 间 的 内 容 ， 通 过 人 工 的 方式 进行 校对 ， 并 将 最 终 的 校对 结果 作为 计算 机 校对 学 习 的 数据 ， 实 现 校 对 机 制 的 更 
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新 。 测 试 结 果 表 明 ， 设 计 方 法 校对 结果 的 准确 性 可 以 达到 94.29% 以 上 。 
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导语 

随 着 时 代 的 发 展 ， 信 息 技术 不 断 升级 ， 其 可 以 借助 
计算 机 实现 对 校对 工作 经 验 的 系统 分 析 和 整理 ， 通 过 挖 
掘 其 中 存在 的 内 在 规律 ， 实 现 对 校对 重点 以 及 校对 内 容 
的 快速 昧 积 ， 这 种 技术 的 出 现 也 颠覆 了 传统 校对 模式 。 
“对 出 版 社 而 言 ， 这 种 智能 化 的 校对 方法 在 极 大 程度 上 
提高 了 校对 的 效率 。 但 是 值得 关注 的 是 ， 计 算 机 实现 较 
多 地 是 建立 在 对 学 科 基 础 知识 了 解 和 掌握 的 基础 之 上 的 。 
“通过 深度 学 习 校 对 的 资料 ， 实 现 对 校对 信息 的 更 新 ， 
单纯 地 依靠 计算 机 完成 校对 工作 并 不 能 达到 预期 的 校对 
标准 。 除 此 之 外 ， 随 着 校对 工作 要 求 的 改变 ， 一 些 校对 
规则 也 在 不 断 发 生 着 变化 ， 机 器 学 习 的 计算 机 校对 是 无 
法 通过 自主 方式 实现 更 新 的 ， 此 时 就 需求 人 为 对 校对 规 
则 进行 修改 。 由 此 不 难看 出 ， 人 工 校对 仍然 是 校对 工作 
中 不 可 或 缺 的 重要 组 成 部 分 。 

为 此 ， 本 文 提出 了 关于 人 机 结合 校对 模式 在 图 书 校 
对 中 的 应 用 研究 ， 利 用 计算 机 强大 的 学 习 能 力 以 及 人 工 
对 校对 问题 判定 的 可 靠 性 ， 实 现 可 靠 的 校对 。 本 文通 过 
试验 测试 对 设计 方法 的 有 效 性 进行 了 验证 。 通 过 本 文 的 
研究 ， 以 期 为 现代 校对 工作 的 开展 提供 帮助 。 
1. 基于 人 机 结合 的 图 书 校对 模式 设计 
1.1 校对 问题 分 解 处 理 
利用 人 机 结合 的 方式 开展 图 书 校 对 工作 之 前 ， 考 虑 
到 校对 涉及 语句 逻辑 、 字 词 正 误 、 专 业 术 语 使 用 等 多 项 
内 容 。 为 此 ， 本 文 首先 对 校对 工作 进行 分 解 ， 将 复杂 多 
样 的 校对 任务 分 解 为 多 个 单一 的 任务 。 对 于 问题 的 分 解 ， 
本 文 对 分 解 函数 进行 了 一 定 的 调整 ， 利 用 静态 分 解 策 略 
实现 对 其 的 优化 。 将 每 一 个 校对 任务 作为 变量 ， 以 每 个 
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群 中 包含 所 属 校对 任务 中 的 所 有 校对 信息 。™ 其 具体 的 
分 解 方 式 为 

X,= sim(p,b,9q) (1) 
其 中 ，Z. 表 示 分 解 后 的 一 个 种 群 ,，b 表示 校对 任务 
自身 的 属性 , p 表示 校对 任务 的 重要 性 ,9 表示 校对 任务 
的 目标 属性 。Sim (* ) 表示 分 解 参考 指标 的 相似 性 。 但 
是 需要 注意 的 是 ， 对 任务 进行 分 解 时 ， 要 将 分 解 粒 度 控 
制 在 合理 范围 内 ， 一 旦 分 解 粒度 过 大 ， 可 能 会 导致 最 终 
的 校对 结果 中 漏 检 问 题 较为 严重 ; 而 当 分解 粒 度 过 小 时 ， 
可 能 会 出 现 相同 问题 重复 校对 的 问题 ， 影 响 最 终 的 校对 
效率 。 为 此 , 本 文 设置 分 解 粒度 大 小 为 0.50。 以 此 为 基础 ， 
即 可 以 得 到 i 个 独立 的 校对 任务 。" 

以 此 为 基础 ， 将 复杂 的 校对 工作 分 解 为 多 个 简单 的 
独立 任务 ， 为 后 续 的 工作 提供 更 加 简单 的 计算 环境 。 
1.2 任务 间 协 作 机 制 的 构建 

首先 ， 对 各 子 群 体 中 的 子 问题 耦合 性 进行 统一 ， 将 
各 个 子 问 题 作 为 独立 的 优化 问题 ， 此 时 对 其 的 求解 方式 
可 以 表示 为 

_ ,+X, +X,) 

DD (2) 
其 中 ，A 表示 各 子 群 体 中 子 问题 的 关联 系数 , f 表 
示 校 对 资源 所 占 的 比例 ，X; 表示 子 群 中 的 独立 个 子 问题 ， 
首 、z、2 分别 表 示 子 问题 元 自身 的 属性 、 重 要 性 以 及 
对 应 校对 目标 的 属性 。 通 过 这 样 的 方式 ， 就 可 以 得 到 优 
化 后 的 校对 任务 。 而 在 实际 校对 工作 中 ， 许 多 问题 不 仅 
仅 是 以 单纯 的 竞争 关系 存在 的 ， 又 包含 协同 关系 。 因 此 ， 
本 文 基于 协同 进化 算法 ， 对 优化 后 的 子 任务 种 群 的 全 局 
平衡 状态 进行 设置 。"" 假设 在 关子 种 群 中 的 个 体 对 校对 


变量 为 目标 ， 建 立 与 之 对 应 的 子 种 群 ， 其 中 ， 每 个 子 种 


工作 其 余 所 有 任务 的 适应 度 评价 为 a， 通 过 逐个 分 析 ， 即 


2 效 字 出 上 
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可 得 到 所 有 子 种 群 中 选择 合作 个 体 , 并 组 成 一 个 完整 解 。 
X= Yax, (3) 


其 中 ,4 表示 *% 子 种 群 中 个 体 对 其 余 校 对 任务 的 适应 
度 评价 结果 。 通 过 这 样 的 方式 ,构建 出 一 个 包含 协作 机 
制 的 校对 任务 体系 ， 为 后 续 的 校对 工作 提供 执行 依据 。 
1.3 校对 信息 更 新 

通过 上 文 不 难看 出 ， 以 计算 机 为 基础 的 校对 主要 
是 以 知识 储备 为 基础 开展 的 ， 而 要 确保 计算 机 的 校对 
效果 ， 对 每 个 任务 子 群 的 信息 库 进行 及 时 有 效 的 更 新 
是 极为 重要 的 环节 。" 为 此 本 文 将 经 过 校对 后 的 文本 
言 息 以 修订 模式 重新 输入 到 计算 机 中 ， 利 用 机 器 学 习 
对 其 修改 的 内 容 进行 深度 学 习 ， 并 与 原 有 的 信息 库 进 
行 比 对 。 当 信息 库 中 原 有 的 校正 信息 在 输入 文本 中 未 
体现 ， 或 原 信息 库 中 没有 的 信息 在 输入 文本 中 有 体现 
时 ， 则 将 其 作为 待 判定 问题 二 次 数 次 输出 ， 通 过 人 工 
和 认 的 方式 对 其 修改 的 准确 性 进行 最 终 确认 。" ”计算 
机 采集 到 最 终 的 校对 结果 后 ， 将 该 类 信息 作为 校对 信 
息 库 的 备用 补充 。 当 再 次 出 现 该 类 问题 时 ， 以 差异 化 
的 标注 形式 对 其 进行 标记 ， 同 样 通过 人 工 确认 的 方式 
对 其 进行 判定 。 当 该 类 问题 的 判定 结果 相同 次 数 达 到 
言 息 库 修 改 的 目标 值 时 ， 则 做 出 对 应 的 添加 或 删除 处 
理 。 其 具体 的 实现 流程 如 图 1 所 示 。 


Cl 


图 1 计算 机 校对 信息 库 更 新 流程 


按照 图 1 所 示 的 方式 ， 确 保 计 算 机 对 校对 内 容 的 判 
定 能 够 按照 校对 要 求 的 变化 而 做 出 调整 ， 确 保 校对 的 可 
徘 性 。 
1.4 基于 人 机 结合 的 校对 

首先 ， 将 待 校对 的 资料 信息 输入 到 计算 机 系统 中 ， 
分 别 以 上 文 建立 的 校对 任务 体系 中 的 单一 任务 为 目标 ， 
对 文本 信息 进行 匹配 ， 当 完成 所 有 任务 的 执行 后 ， 对 匹 
配 度 达 到 判定 要 求 的 问题 ， 直 接 通过 计算 机 对 其 进行 修 
改 及 标注 。 在 此 过 程 中 ,匹配 的 方式 为 
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e=sim(X,,W.) (4) 

其 中 ， 灰 表示 待 校对 文本 信息 。 

对 判定 标准 的 设置 ， 由 于 不 同文 本 类 型 的 校对 重点 
存在 一 定 差异 ， 因 此 结合 实际 情况 ， 本 文 将 单一 校 验 任 
务 的 匹配 度 结果 与 整体 校 验 任务 的 匹配 度 结果 的 比值 作 
为 判定 标准 ， 以 此 为 基础 ， 对 判定 标准 的 设置 值 如 表 1 
所 未 。 


表 1 校对 判定 标准 


比值 区 间 判定 结果 
[0.00，0.10] 标记 但 不 修改 
(0.10，0.65 ) 标记 并 输出 人 工 判 定 
[0.65，1.00] 标记 并 修改 


按照 表 1 的 标准 ， 将 取 值 区 间 为 [0.65，1.00] 的 校对 
内 容 直 接 利用 计算 机 进行 修改 。 通 过 这 样 的 方式 即 可 通 
过 计算 机 完成 对 文本 65% 校对 问题 的 修改 ; 将 取 值 区 间 
为 [0.00, 0.10] 的 校对 内 容 做 简单 标记 , 并 进行 单独 处 理 ; 
对 无 法 确认 是 否 存在 问题 ， 或 者 无 法 明确 修改 后 信息 的 
问题 ， 通 过 人 工 校对 的 方式 对 其 进行 判断 。 最 终 将 校对 
后 的 文本 再 次 以 标记 的 形式 输入 到 计算 机 中 ， 作 为 机 器 
学 习 的 目标 ， 为 信息 库 的 更 新 提供 数据 基础 。 
2. 应 用 测试 
2.1 测试 环境 设计 

由 于 本 文 设计 的 校对 方法 是 以 人 机 结合 为 基础 实现 
的 ， 因 此 需要 计算 机 设备 的 支持 ， 在 测试 过 程 中 ， 本 文 
采用 的 数据 库 服务 器 型 号 为 sqlserver 2019， 对 应 的 应 用 
服务 器 搭载 的 操作 系统 版 本 为 Windows Server 2020， 服 务 
器 端的 具体 运行 环境 为 6.0GHZ，CPU 大 小 为 1G， 系 统 
运行 的 网 络 环 境 为 TCP/IP 。 
2.2 测试 目的 设计 

为 了 全 方位 测试 本 文 设计 的 人 机 结合 校对 模式 的 应 
用 效果 ， 本 文 首 先 在 测试 图 书馆 内 部 用 专 网 软 硬 件 网 络 
环境 下 搭建 了 具体 的 测试 环境 ， 通 过 构建 一 个 完整 且 真 
实 的 测试 环境 ， 为 测试 结果 的 可 靠 性 提供 保障 。 在 此 基 
础 上 分 别 在 社会 学 科 、 自 然 学 科 、 实 验 学 科 、 计 算 机 学 科 、 
建筑 学 科 以 及 设计 学 科 抽 选 测试 数据 ， 以 此 为 基础 实施 
具体 的 测试 任务 。 根 据 测 试 计划 ， 本 文 在 对 校对 资料 类 
别 和 种 类 进行 选择 时 ， 尽 可 能 以 多 样 化 为 目标 ， 以 此 为 
基础 ， 形 成 了 最 终 的 测试 用 文档 数据 。 考 虑 到 需 校 对 结 
果 的 统计 需要 采集 完整 的 未 校对 的 错误 信息 ， 因 此 本 文 
进行 此 次 测试 的 主要 目标 是 判断 人 机 结合 校对 是 否 都 能 
够 满足 图 书馆 在 资料 校对 业务 方面 提出 的 要 求 。 按 照 现 
阶段 普遍 使 用 的 标准 ， 本 文 将 对 校对 准确 率 达 到 90% 以 
上 作为 合格 标准 的 正确 率 。 
2.3 测试 范围 设计 

本 文 的 测试 工作 范围 包括 资料 的 共享 性 、 字 词句 一 
致 性 错误 、 专 业 术 语 使 用 错误 、 资 料 内 容 引用 错误 4 项 ， 
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为 便于 统计 ,分别 记 为 DOB@B。 以 此 为 基础 ,测试 中 
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表 2 实验 数据 准备 


选用 的 实验 数据 具体 设置 如 表 2 所 示 。 数据 所 属 类 别 由 © 3 @ 
2.4 测试 结果 社会 学 科 12 95 58 44 
处 学 科 

在 上 述 基础 上 ， 利 用 文献 单一 计算 机 校对 和 单一 人 1 过 > 2 
实验 学 科 6 0 56 
工 校对 的 方法 作为 对 照 组 ， 分 别 对 测试 数据 进行 校对 ， 记 = 一 
-| 4 DO 

许 续 ? 法 的 校对 疆 三 届 全 
er si 果 ， 其 中 未 检 出 的 文本 作为 Se 1 可 二 
数据 如 表 3 所 示 。 设计 学 科 00 32 76 72 

表 3 校对 结果 统计 表 
计算 机 校对 人 工 校 对 本 文 方法 校对 
数据 所 属 类 别 


实验 学 科 6 5 16 了 7 7 2 6 1 0 4 0 
计算 机 学 科 5 4 11 4 6 5 2 7 1 2 2 0 
建筑 学 科 6 5 15 5 6 5 1 六 0 0 2 2 
设计 学 科 7 了 12 2 6 6 13 3 多 0 2 六 


通过 对 比 表 3 数据 不 难看 出 ， 单 一 计算 机 校对 和 人 
工 校对 对 资料 业务 逻辑 错误 和 专业 术语 使 用 规范 错误 的 
漏 检 率 相对 较 高 ， 相 比 之 下 ， 本 文 方法 对 6 种 错误 的 漏 
检 个 数 始 终 低 于 5 个 ,特别 是 对 字 词 句 一 致 性 错误 的 校对 ， 
其 检 出 率 达 到 了 100%。 整 体 测试 结果 中 ， 检 出 率 最 低 的 
内 容 为 实验 学 科 中 在 专业 术语 使 用 规范 上 存在 的 错误 ， 
但 其 检 出 率 也 达到 了 94.29%， 远 高 于 校对 准确 率 90.00% 
的 合格 要 求 。 表 明 本 文 设计 的 校对 方法 可 以 实现 对 资料 
中 错误 的 准确 识别 。 
结语 

图 书 出 版 后 ， 其 产生 影响 的 范围 是 巨大 的 ， 且 产生 
的 影响 是 不 可 逆转 的 。 因 此 , 无 论 是 从 学 术 研 究 的 角度 ， 
还 是 从 出 版 需求 的 角度 ， 在 出 版 前 对 资料 进行 有 效 的 校 
对 是 十 分 重要 的 环节 之 一 。 一 方面 ， 考 虑 出 版 刊物 对 时 
间 的 要 求 ， 另 一 方面 ,考虑 出 版 社 对 校对 效率 的 要 求 ， 
如 何 实现 高 效 准 确 的 校对 成 为 出 版 行业 关注 的 重点 问题 。 
本 文 就 人 机 结合 技术 在 图 书 校 对 中 的 应 用 展开 研究 ， 实 
现 对 错误 的 有 效 检 出 。 通 过 本 文 的 研究 ， 也 希望 为 相关 
工作 的 开展 提供 有 价值 的 参考 ， 实 现 快速 、 准 确 的 资料 
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